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要 : [目的 /意义 ] 社 交 网 络 用 户 自我 披露 对 以 用 户 生成 内 容 为 业务 基础 的 社交 网 络 具 有 战略 意义 ,而 用 户 生成 内 容 的 
和 质量 取决 于 用 户 自 我 披露 意愿 。 因 此 ,研究 社交 网 络 用 户 自我 披露 意愿 及 其 影响 因素 ,为 社交 网 络 平台 制 
私 政策 、 提 升 用 户 自我 披露 水 平 提供 参考 ,促进 社交 网 络 平台 的 健康 快速 发 展 。[ 方法 过程] 参考 已 有 研究 


选择 新 浪 微 博 作为 社交 网 络 平台 代表 ,采用 Python 爬 忠 方法 


结果 /结论 ] 微 博 内 容 的 语义 、 位 置 标签 和 数据 权限 均 影 响 用 
户 自我 披露 意愿 ,隐藏 位 置 标签 和 设置 数据 权限 等 操作 会 显著 提高 用 户 自 我 披露 意愿 。 社 交 网 络 用户 自 我 披露 
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es 框架 ,构建 社交 网 络 用 户 自我 披露 意愿 的 研究 模型 。 

> 获取 用 户 微 博 数 据 , 据 此 分 析 用 户 自我 披露 意愿 。[ 
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一 自我 披露 指 个 人 与 他 人 交往 时 ,自愿 且 真实 地 向 
目标 人 倾诉 自己 的 思想 .展示 自己 的 行为 " 。 在 现代 
社会 中 ,自我 披露 是 人 类 各 种 社会 关系 得 以 形成 的 前 
提 紧 件 , 是 人 类 传播 的 基础 。 社 交 网 络 可 以 帮助 人 们 
建 入 和 维护 社会 关系 ,具有 鼓励 用 户 自我 披露 的 天 然 
机 制 , 越 来 越 多 的 用 户 开始 在 社交 网 络 中 进行 自我 氢 
露 ,以 微 信 、 微 博 、` 拌 音 和 快手 等 为 代表 的 社交 媒体 已 
广泛 渗透 到 人 们 的 日 常生 活 。 然 而 ,近年 来 层出不穷 
的 用 户 隐 私 泄露 事件 ( 例如,“1. 59 亿 领 英 用 户 敏感 数 
据 遭 泄露 汪 ”““8 700 万 Facebook 用 户 数据 被 不 当 汇 露 
给 政治 咨询 公司 剑桥 分 析 ””” 等 ) ,已 引发 广泛 的 社会 
关注 ,如 何 鼓励 用 户 持续 自我 披露 成 为 社交 网 络 平台 
发 展 的 首要 问题 。 用 户 是 社交 网 络 的 基本 要 素 ,其 快 
速 发 展 依赖 于 用 户 自我 披露 内 容 的 数量 和 质量 。 社 交 
网 络 用 户 自我 披露 的 历史 数据 是 用 户 自我 披露 行为 的 
真实 记录 ,笔者 选择 新 浪 微 博 作为 社交 网 络 平台 代表 ， 


通过 爬虫 技术 获取 用 户 自 我 披露 的 历史 微 博 数据 , 根 
据 微 博 数据 特征 ,从 微 博 语义 内 容 、 微 博 位 置 标 签 和 微 
博 数据 权限 3 个 维度 探究 社交 网 络 用 户 自 我 披露 意愿 
及 其 影响 因素 。 研 究 社 交 网 络 用 户 的 自我 披露 意愿 有 
助 于 分 析 社 交 网 络 用 户 自 我 披露 的 影响 因素 ,为 社交 
网 络 平台 制定 隐私 政策 .提升 用 户 自我 披露 水 平 提 供 
参考 。 另 外 ,社交 网 络 中 的 内 容 会 对 用 户 ( 尤 其 是 青 少 
年 用 户 ) 的 自我 披露 意愿 产生 深刻 影响 , 了解 影响 用 户 
自我 披露 和 隐私 保护 的 因素 ,有 助 于 引导 用 户 ( 尤 其 是 
青少年 用 户 ) 正 确 设 定 隐私 设置 和 进行 适当 的 自我 披 


2 文献 综述 


目前 ,已 有 大 量 关 于 用 户 自我 披露 的 实证 研究 , 笔 
者 从 数据 获取 方法 .重要 影响 因素 和 研究 情景 等 角度 
对 相关 研究 进行 归纳 , 见 表 1。 

根据 表 1 可 以 得 出 , 现 有 关于 用 户 自 我 披露 的 研 
究 ,将 用 户 自我 披露 的 影响 因素 主要 归纳 为 “感知 风险 
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等 .社交 网 络 用 户 自我 披露 意愿 研究 


;ny 人 6 趣 志 


以 新 浪 微 博 为 例 [可 .图 


一 97. 
表 1 用 户 自我 披露 相关 研究 汇总 
数据 获取 方法 户 自我 披露 的 影响 因素 研究 情境 文献 来 源 
网 络 问卷 感知 风险 ,感知 收益 .隐私 关注 竺 交 网 络 HH，Krasnova 等 [4](2010) 、 郭 海 玲 等 [5](2019) 
电子 商务 T. Dinev 等 [61(2004) . 朱 侯 等 [71(2017) 
在 线 医疗 张 星 等 581(2016) \ 王 瑜 超 '”](2018) 
态度 .主观 规范 行为 意愿 .感知 控制 社交 网 络 H. Xu 等 110](2013) 、 李 征 仁 1111(2014) 
电子 商务 朱 修 等 ?1(2017) 、 刘 百灵 等 [1?1(2017) 
在 线 医疗 李 裕 广 13]1(2015 ) , 张 旺 等 [81(2016 ) 
感知 控制 、 信 任 、 隐 私 规则 社交 网 络 郭 海 玲 等 [51(2019) .N，Zlatolas 等 [14](2019) 
电子 商务 刘 百 灵 等 [21(2020) 
信任 ,感知 风险 .感知 收益 社交 网 络 了 H，Ko 等 [15](2009) E. T. LoiaconoL16](2015) 
在 线 医疗 姜 又 琦 (71(2017) \ 王 瑜 超 !?](2018) 
实验 调查 信任 、 隐 私 关注 ,感知 收益 电子 商务 J. C. Zimmer 等 118](2010) K，Premazzi 等 1!9](2014 ) 
感知 收益 .感知 风险 态度 .社会 规范 .感知 控制 社交 网 络 T. Sterm 等 [20](2015) .E，Kim 等 [21](2016) 
信任 、 隐 私 关注 ,感知 风险 在 线 医 疗 G. Bansal 等 [22](2010) 


和 感知 收益 (隐私 计算 理论 ) ”行为 态度 .主观 规范 和 
感 区 控制 (计划 行为 理论 ) “隐私 规则 、 信 任 和 感知 控 
制 (沟通 隐私 管理 理论 ) 等。 相关 研究 大 多 以 隐私 计 
自理 论 为 基础 ,结合 计划 行为 理论 和 沟通 隐私 管理 理 
论 ,根据 不 同 的 研究 情境 ,通过 增删 变量 的 方式 构建 
而 同 的 用 户 自我 披露 研究 模型 。 而 上 述 影 响 用 户 自 我 
扰 理 的 因素 大 多 是 用 户 的 主观 感知 因素 ， 因此 ,数据 调 
者 式 也 多 为 问卷 调查 ,然而 该 方法 具有 一 定局 限 性 : 
(而 是 卷 题 项 设计 固定 ,缺乏 弹性 ,揭示 现象 的 角度 有 
限 3@ 问 题 设计 可 人 E 存 在 倾向 性 ,容易 对 被 试 者 产生 引 
时 稚 用 ; ;@ 被 试 者 自我 报告 的 数据 主观 性 较 强 ,不 一 定 
真 坟 反映 其 态度 及 行为 。 因 此 ,部 分 研究 将 实验 法 和 
间 办 调查 法 相 结合 , 先 在 模拟 情景 中 观测 用 户 的 披露 
意 条 或 实际 披 名 行为， 随后 让 用 户 填写 影响 因素 的 量 
表 问题 以 获取 相关 数据 ,但 该 方法 在 问卷 设计 及 填写 
方面 仍然 具有 较 强 主观 性 , 且 实 验 成 本 较 高 。 
笔者 为 克服 上 述 研究 方法 存在 的 客观 缺憾 ,采用 
拒 虫 技术 抓 取 用 户 在 社交 网 络 上 自我 披露 的 历史 数 
据 ,挖掘 社交 网 络 用 户 的 自我 披露 行为 特征 。 该 方法 
的 优点 有 2 个 :社交 网 络 平台 保留 了 大 量 用 户 自 我 
披露 的 历史 数据 ,是 用 户 自我 披露 的 真实 行为 记录 。 
因此 ,可 对 用 户 自 我 披露 的 历史 数据 进行 深度 挖掘 ,以 
分 析 用 户 的 行为 特征 。@ 采 用 把 虫 技术 获取 的 用 户 数 
据 体 量 大 , 且 真 实 可 靠 , 能 在 很 大 程度 上 克服 问卷 调查 
法 的 主观 性 过 强 的 次 端 ,更 客观 反映 用 户 行为 特征 。 
鉴于 此 ,笔者 采用 把 虫 技 术 , 抓 取 用 户 在 社交 网 络 
上 自我 披露 的 历史 数据 ,基于 A，Adams 等 提出 的 
隐私 感知 模型 ,从 语义 维度 、 空 空间 维度 (包含 空间 类 型 


愿 及 其 影响 因素 ,基于 数据 分 析 结 果 向 社交 网 络 平台 
提出 针对 性 的 运营 建议 。 


3 用户 自 我 披露 意愿 研究 模型 


A. Adams 等 采用 扎根 理论 方法 对 已 有 相关 研究 
进行 归纳 ,从 信息 敏感 性 .信息 接收 和 信息 使 用 3 个 维 
度 构 建 用 户 隐 私 感知 模型 ,逐渐 成 为 研究 用 户 隐私 问 
题 的 有 效 框 架 ;J，S，Cunningham 等 站 基于 该 模型 , 针 
对 数字 照片 在 线 收藏 与 分 享 情境 ,从 信息 敏感 性 、 信 息 
接收 者 和 信息 使 用 3 个 维度 研究 了 用 户 对 个 人 数字 照 
片 共享 意愿 的 影响 因素 ;C.Jennett 等 “利用 该 模型 ， 
针对 信用 贷款 申请 情景 ,从 数据 敏感 性 .数据 接收 者 和 
数据 使 用 3 个 维度 研究 了 贷款 申请 人 向 贷款 提供 者 披 
露 个 人 信息 意愿 的 影响 因素 。 

用 户 在 社交 网 络 中 发 布 信息 的 过 程 就 是 用 户 的 自 
我 披露 过 程 ,因此 ,笔者 借鉴 A，Adams 的 隐私 感知 模 
型 ,分 析 用 户 在 社交 网 络 中 的 自我 披露 意愿 。 然 而 ,在 
社交 网 络 情景 下 ,用 户 自 我 披露 的 大 多 数 内 容 面 向 所 
有 用 户 ,无 法 预测 信息 使 用 者 。 因 此 ,笔者 仅 选 择 A. 
Adams 隐私 模型 中 的 “信息 敏感 性 ”和 “信息 接收 ”两 
个 维度 研究 社交 网 络 用 户 自 我 披露 行为 。 社 交 网 络 情 
景 下 ,“ 信 息 敏感 性 ” 指 用 户 自我 披露 内 容 敏 感性 , 包 
含 语义 .空间 两 个 维度 ;“ 信 息 接 收 ” 是 指 用 户 对 其 自 
我 披露 内 容 设 置 的 数据 权限 。 

3.1 语义 维度 

语义 维度 是 指 基于 用 户 在 社交 网 络 中 发 布 信息 的 

语义 内 容 特征 ,从 语义 层面 将 用 户 自 我 披露 的 文本 内 


容 划分 为 知 干 维度 。 目 前 ,已 有 许多 关于 信息 类 型 对 
用 户 行 为 影响 的 研究 结论 。 比 如 ,信息 类 型 对 社交 网 


和 空间 级 别 ) 和 数据 权限 维度 分 析 用 户 的 自我 披露 
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络 用 户 的 转发 意愿 有 显著 影响 ,用户 转发 享乐 型 信息 
的 意愿 显著 高 于 功利 性 信息 ;在 热点 事件 的 微 博 话 
题 讨论 中 ,用 户 对 非 情绪 化 信息 的 分 享 意愿 高 于 情绪 
化 信息 ,对 积极 情绪 信息 的 分 享 意愿 高 于 消极 情结 信 
息 户 ] 。 

笔者 参考 侯 人 敏 ” 对 微 博 信息 的 分 类 结果 以 及 用 
户 发 布 信息 的 目的 ,从 信息 的 语义 内 容 角 度 , 将 社交 网 
络 用 户 自我 披露 的 语义 内 容 划 分 为 “生活 记录 类 ”新 
闻 娱 乐 类 ”“ 工 作 学 习 类 ”和 “人 情感 表达 类 ”, 以 分 析 不 
同 语义 维度 下 用 户 自我 披露 意愿 的 差异 。 
3.2 空间 维度 

空间 维度 指 基于 用 户 在 社交 网 络 上 发 布 信息 时 的 
位 置 标签 内 容 特征 ,从 空间 级 别 和 空间 类 型 层面 将 用 


基于 上 述 维度 分 析 , 构 建 社交 网 络 用 户 自我 披露 
意愿 的 研究 模型 ,如 图 1 所 示 : 


1 社交 网 络 用 户 自我 披露 意愿 的 研究 模型 


4 数据 获取 与 处 理 


请 自我 披露 的 位 置 标签 划分 为 者 干 维度 ,包含 空间 级 

别 和 空 间 类 型 两 个 子 维度 。 

一 空间 级 别 子 维度 。 社交 网 络 平台 允许 用 户 在 发 布 
信息 时 自 定义 位 置 标签 级 别 ,可 以 是 当前 所 在 的 城市 、 
全 也 可 精确 到 某 一 具体 地 点 ,用 户 可 通过 空间 级 别 
的 命 性 化 设置 保护 其 个 人 隐私 。 因 此 ,笔者 将 空间 级 
路 妥 置 为 城市 “街道 “具体 位 置 "3 个 水 平 。 

人 空间 类 型 子 维度 。 只 有 当空 间 级 别 为 “具体 位 
置 水 平时 ， 才 可 分 析 空 间 类 型 对 用 户 自我 披露 意愿 的 

yl 已 有 研究 表明 '”” ,用 户 对 不 同 ] 电 理 位 置 类 型 
的 总 感性 存在 显著 关内 大 众 娱乐 场所 是 敏感 性 较 弱 
的 点， 与 身体 健康 相关 的 地 点 敏感 性 较 高 ,而 居住 地 
被 洋 为 是 敏感 性 最 强 的 地 点 。 另外 ,根据 《中 国 互联 网 
络 人 发 展 状况 统计 调查 》 ,学 生 占 我 国 网 民 群 体 的 比 
例 最 高 ( 占 比 21% )， 而 学 生 的 大 部 分 活动 地 点 为 学 
校 。 因 此 ,笔者 将 空间 类 型 设置 为 “大 众 娱 乐 场 所 ” 
“医疗 健康 场所 “学 习 教育 场所 ”和 "个 人 居住 场所 "4 
种 空间 类 型 。 

3.3 ”数据 权限 维度 

数据 权限 是 指 用 户 对 数据 接收 者 范围 的 控制 ,用 
于 研究 不 同 范围 的 数据 接收 者 对 用 户 自 我 披露 意愿 的 
影响 。 研 究 表明 ” ,赋予 用 户 对 数据 接收 者 范围 的 


根据 新 浪 官方 统计 数据 ” ,截至 2020 年 9 月 ,新 
浪 微 博 月 活跃 用 户 已 达 5.11 亿 , 平 均 日 活跃 用 户 为 
2.24 亿 ,新 浪 微 博 已 成 为 国内 用 户 网 络 社 交 的 重要 媒 
介 。 因 此 ,笔者 选择 新 浪 微 博 作为 社交 网 络 平台 代表 ， 
研究 社交 网 络 用 户 自 我 披露 的 意愿 。 
4.1 获取 方法 及 数据 项 

获取 用 户 数据 的 方法 主要 有 两 种 :四 通过 新 浪 微 
博 API 接口 获取 ;@) 通 过 网 络 疏 虫 获 取 。 前 者 需 获 得 
新 浪 微 博 授权 , 且 请 求 次 数 有 限制 。 因 此 ,笔者 采用 网 
络 爬 虫 方法 获取 微 博 用 户 数据 。 

根据 上 述 构建 的 社交 网 络 用 户 自我 披露 意愿 的 研 
究 模 型 , 需 获 取 的 数据 项 包括 两 部 分 :中 用 户 的 基本 数 
据 , 包 括 性 别 .出生 日 期 .教育 背景 等 人 口 统计 数据 以 
及 用 户 注 册 时 间 ;@@ 用 户 的 历史 微 博 数据 ,包含 用 户 已 
发 布 微 博 的 正文 文本 ` 发 布 微 博时 的 位 置 标签 .已 发 布 
的 微 博 总 数 等 。 
4.2 用 户 样本 选择 

为 保证 用 户 样本 的 真实 性 和 合理 性 ,笔者 从 账户 


活跃 度 .账户 实际 运营 者 ,用户 整体 特征 3 个 方面 对 用 
户 样本 进行 筛选 和 控制 。 
(1) 账户 活跃 度 ,应 选择 活路 度 相对 高 的 账户 。 


目前 缺乏 这 类 账户 的 界定 标准 ,笔者 设 定 的 筛选 标准 


选择 权能 有 效 降低 用 户 的 隐私 担忧 ,从 而 提高 用 户 自 
我 披露 的 意愿 。 大 多 数 社交 网 络 平台 均 允 许 用 户 对 其 
自我 披露 内 容 进 行 数据 权限 设置 。 例 如 ,新 浪 微 博 内 
容 的 数据 权限 分 为 :公开 可 见 ,粉丝 可 见 ,好友 圈 可 见 、 
es 的 数据 权限 分 为 : 仅 自己 可 

见 、 朋 友 可 见 、 朋 友 的 朋友 可 见 、 所 有 人 可 见 等 。 为 便 
Oe 彼 研 究 ,笔者 将 数据 权限 简化 为 “所 有 人 可 见 ” 和 
“部 分 人 可 见 ” 两 个 水 平 。 


为 :账户 注册 时 间 满 1 年 以 上 , 且 发 布 微 博 总 数 不 低 于 
20 条 。 

(2) 账 户 实际 运营 者 ,应 是 对 信息 披露 行为 具有 
主导 权 的 普通 个 人 用 户 ,而 非 官 方 微 博 、 明 星 、 专 业 博 
主 等 机 构 运 营 账 户 。 为 简化 筛选 条 件 ,剔除 粉丝 数量 
大 于 5 000 的 账户 。 

(3 ) 用户 整体 特征 ,应 符合 


整体 微 博 用 户 特征 。 
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S09, 


po a 4) /=f 


将 用 户 样本 的 性 别 、 年 龄 和 学 历 层次 与 42018 年 微 博 
用 户 发 展 报告 》” 中 的 整体 微 博 用 户 特征 进行 对 比 ， 


二 者 相差 不 大 即 可 ,否则 应 调整 用 户 样本 。 
4.3 数据 处 理 
4.3.1 数据 清洗 


笔者 选择 的 数据 清洗 工具 为 Pandas 工具 包 (Py- 
thon 的 第 三 方 库 ) ,包括 用 户 基本 数据 项 清洗 和 微 博文 
本 数据 清洗 。 

基本 数据 项 清洗 : 列 除 不 完整 .逻辑 错误 和 重复 的 
数据 。 不 完整 数据 是 指 用 户 基 本 数据 项 缺失 的 数据 ， 
剔除 不 完整 数据 以 便于 后 续 人 口 统计 特征 分 析 。 逻 辑 
错误 数据 是 指 用 户 年 龄 与 注册 时 间 、 年 龄 与 教育 背景 


表 2 LDA 主题 挖掘 结果 及 高 权 词 


类 别 主题 高 权 词 (权重 


— 


生活 0# ”旅行 (0.017) \ 在 家 (0.012) 放假 (0.011) 
记录 类 6# 希望 (0.018) .努力 (0.017) 生活 (0.014) 健康 (0.013 ) 
9# ”红包 (0.07) ,感谢 (0.033) . 睡 (0.025) .拍照 (0.014) 
11#” 吃 (0.096) . 买 (0.025) .晚上 (0.016) ,东西 (0.012) ,每 天 (0.011) 
新 闻 2# ”视频 (0.14) 、 榜 (0.066) 明星 (0.018 ) 
娱乐 类 ”3# ” 打 榜 (0.03) 、 新 歌 (0.027)、 音 乐 (0.023) 
7# ”文章 (0.025) 头条 (0.022) .信息 (0.016) 


8# ”中 国 (0.03) ,活动 (0.023) 发布 (0.022) 中 
10# ”病例 (0.148) ,病毒 (0.043) 
学 院 (0.013) ,老师 (0.012) .学 生 (0.007) 


[nny 
nn 


影 (0.017) 


等 存在 明显 逻辑 错误 的 数据 。 比 如 ,出 生日 期 "应 早 
于 注册 时 间 ”, 且 两 者 差 值 不 低 于 14( 微 博 的 推荐 合 

本 龄 为 14 岁 及 以 上 ) ;教育 背景 "为 “高 中 "的 用 户 
年 龄 应 不 低 于 15 周岁 “教育 背景 "为 “大 学 "的 用 户 
答应 不 低 于 17 周岁 ;等 。 重 复数 据 是 指 用 户 ID 重 
复 的 数据 ,采用 "滚雪球 ”的 方式 会 存在 多 次 抓 取 同一 
用 兰 的 情况 ,应 剔除 重复 用 户 。 


全 


学 习 类 ”12# 教师 (0.059) 爱心 (0.037) 教育 (0.011) 
13# ”能 量 (0.026) .学 校 (0.023) .计划 (0.012) .开学 (0.011) 
守护 者 (0.036) 加 入 (0.022) 青春 (0.013) 志愿 者 (0. 006) 
情感 1# ”开心 (0.04) ,感觉 (0.03) 欢乐 (0.003 ) 
表达 类 5# 哈 


哈哈 (0.056) ,快乐 (0.044) . 早 安 (0.025) 喜欢 (0.008) 


a 
un 
站 

阐 


E 亡 (0.023 ) .觉得 (0.017) .喜欢 (0.013 ) .感觉 (0.008 ) 


空间 级 别 分 类 。 首 先 ,根据 《2020 年 中 华人 民 共 
和 国 行政 区 划 代 码 》" 将 位 置 标签 代码 化 。 其 次 , 采 


〇 微 博文 本 数据 清洗 :原始 微 博文 本 为 自然 语言 , 需 
双生 进行 过 滤 和 清洗 ,以 便 进行 语义 分 类 。 主 要 包括 : 
0 再 除非 原创 微 博 内 容 ;如 除 “@ 用 户 名 ”;@ 删 除 
个 漳 正 文中 的 图 片 视频 .网 页 等 URL 链接 。 

4, 名 2 数据 分 类 

><(1) 语 义 分 类 。 语 义 分 类 是 指 将 用 户 发 布 的 微 博 
按照 语义 内 容 划 分 为 若干 类 别 ,以 分 析 不 同 语义 类 型 
对 县 户 自 我 披露 意愿 的 影响 。 首 先 ,利用 python 的 第 
三 殉 库 "jieba" 分词 和 去 除 停 用 词 ,将 微 博 转 换 为 纯 词 
组 的 文本 ,并 将 所 有 词组 整合 形成 一 个 纯 词 组 的 集合 ; 
其 次 ,使 用 词 权重 计算 算法 (Term Frequency - Inverse 
Document Frequency,TF-IDF ) 计算 单个 词组 在 整个 词 
组 集合 中 的 权重 ,选择 权重 较 高 的 词组 作为 文本 聚 类 
模型 的 特征 词 ,从 而 实现 微 博 文本 向 量化 ;再 次 ,使 用 
主题 挖掘 模型 (Latent Dirichlet Allocation ,LDA ) 进行 文 
本 主题 挖掘 ,形成 若干 聚 类 艇 ;最 后 ,基于 聚 类 马 中 的 
高 权 主 题词 ,将 各 聚 类 艇 分别 归 类 入 生活 记录 类 ,新闻 
娱乐 类 ,工作 学 习 类 和 情感 表达 类 4 种 类 型 中 ,实现 语 
义 分 类 目的 ,示例 见 表 2。 

(2) 空 间 分 类 。 空 间 分 类 是 指 对 用 户 发 布 微 博时 
选择 的 位 置 标签 进行 分 类 ,包括 空间 级 别 分 类 和 空间 
类 型 分 类 ,以 分 析 微 博 位 置 标签 的 空间 级 别 和 空间 类 
型 对 用 户 自我 披露 意愿 的 影响 。 


日 条 件 判 断 语句 对 位 置 标签 代码 进行 判断 。 大 位 置 标 
签 代码 为 空 , 则 将 该 标签 归 人 “无 位 置 标签 "类 ; 知 位 
置 标签 代码 非 空 , 当 位 置 标签 代码 最 后 两 位 为 "00 ” 
时 ,将 该 标签 的 空间 级 别 设 置 为 "城市 "类 ; 当 位 置 标 
签 代 码 最 后 两 位 非 *“00" 时 ,检验 位 置 标签 文本 , 知 位 
置 标签 文本 的 最 后 一 个 字 为 “ 道 " 或 “ 街 " 或 “路 "或 
“区 "或 “ 替 " 或 “和 弄 " 或 “里 ” ,将 该 标签 的 空间 级 别 设 
置 为 "街道 "类 。 最 后 ,将 不 符合 上 述 条 件 的 位 置 标签 
设置 为 "具体 位 置 "类 。 

空间 类 型 分 类 。 当 位 置 标签 的 空间 级 别 为 “具体 
位 置 " 类 时 ,讨论 该 标签 的 空间 类 型 才 具 有 实际 意义 。 
笔者 参考 相关 研究 ,将 这 部 分 微 博 位 置 标签 的 空间 类 
型 划分 为 大 众 娱乐 场所 、 医 疗 健康 场所 、 学 习 教 育 场所 
和 个 人 居住 场所 4 类 ,采用 模糊 匹配 算法 对 位 置 标签 
的 空间 类 型 进行 标记 分 类 。 比 如 ,将 商 超 饭店 酒店、 
景区 等 归 为 大 众 娱乐 场所 ;将 医院 、 门 诊 部 \ 诊 所 疗养 
院 ,养老 院 等 归 为 医疗 健康 场所 ;将 大 中 小 学 校 科 研 
院 所 等 归 为 学 校 教育 场所 ;将 住宅 区 归 为 个 人 居住 场 
所 。 


5 数据 统计 与 分 析 


5.1 数据 统计 
2020 年 12 月 10 日 至 2021 年 01 月 31 日 期 间 , 采 
用 自 编 Python 怜 虫 程序 ,以 某 一 用 户 的 粉丝 列表 为 起 
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点 ,采用 "滚雪球 ”的 方式 共 获取 61 902 个 用 户 中 ,经 
用 户 样本 条 件 筛选 和 数据 清洗 后 ,剩余 2 047 个 有 效 
用 户 ID ,包含 约 15.7 万 条 微 博 。 用 户 样本 的 人 口 统计 
学 特征 如 表 3 所 示 : 

表 3 用 户 样 本 的 人 口 统计 学 特征 


特征 类 别 频次 频率 /% 
性 别 男 923 45.1 
女 1 124 54.9 
年 龄 19 岁 及 以 下 427 20.9 
20 -29 岁 574 28.0 
30 -39 岁 552 27.0 
40 岁 及 以 上 494 24.1 
学 历 高 中 及 以 下 580 28.3 
专科 876 42.8 
= 本 科 及 以 上 591 28.9 


本 用 户 发 布 微 博时 设置 的 数据 权限 能 反映 其 自我 氢 
种 的 意 愿 , 当 用 户 将 数据 权限 设置 为 “所 有 人 可 见 " 时 
的 到 我 披露 意愿 高 于 “部 分 人 可 见 ”, 正 是 由 于 用 户 对 
其 全 我 披露 内 容 的 数据 权限 设置 , 疏 虫 软件 只 能 疏 取 
到 的 数据 权限 为 “所 有 人 可 见 "的 微 博 。 因 此 ,统计 息 
联 到 的 用 户 微 博 数量 和 该 用 户 发 布 的 微 博 总 数 ,二 者 
人 也 例 在 一 定 程度 上 能 够 反映 该 用 户 的 自我 披露 意 
: 即 “ 公 开发 布 微 博 数量 比例 "代表 用 户 自我 披露 意 
愿 到 笔者 采用 SPSS 22. 0 分 别 分 析 人 口 统计 学 因素 、 


:于 | 人口 统计 学 因素 与 用 户 自我 披露 意愿 
〇 自 变量 为 用 户 性 别 、 年 龄 .学 历 等 人 口 统计 学 变 
量 , 且 均 为 虚拟 变量 。 因 此 ,性 别 变量 中 :“ 男 ”= 1， 
“ 女 ”=2; 年 龄 变量 中 ;“19 岁 及 以 下 ”=1,“20 -29 
岁 ”=2,“30 -39 岁 ”=3,“40 岁 及 以 上 ”=4; 学 历 变 
量 中 :“ 高 中 及 以 下 ”=1,“ 专 科 ”=2,“ 本 科 及 以 上 ”= 
3。 因 变量 为 用 户 自我 披露 意愿 。 对 其 进行 多 元 线性 


回归 ,结果 如 表 4 所 示 : 
表 4 多 元 线性 回归 结果 
非 标准 化 系数 标准 化 系数 
模型 t Sig 
B 标准 误差 Beta 
(常量 ) 0.746 0. 033 22. 685 0. 000 
性 别 -0.040 0.014 —0.063 -2.869 0.004 
年 龄 —0.014 0.006 —0.046 -2.105 0.035 
学 历 —0.026 0. 009 -0.062 -2.830 0.005 
性 别 变 量 。 根 据 表 4 可 以 得 出 ,用 户 性 别 显著 负 
名 影响 其 自我 披露 意愿 , 即 女性 用 户 自 我 披露 意愿 显 


著 低 于 男性 。 相 关 研究 ” 将 此 现象 解释 为 :与 女性 相 
比 , 男 性 更 希望 通过 社交 网 络 来 结识 陌生 人 (尤其 是 异 
性 ) ,并 发 展 建立 起 新 的 关系 。 因 此 ,男性 用 户 更 倾向 
于 在 社交 网 络 中 自我 披露 。 

年 龄 变量 。 根 据 表 4 可 以 得 出 ,用 户 年 龄 显著 
向 影响 其 自我 披露 意愿 , 即 高 年 龄 用 户 自我 披露 意 / 
显著 低 于 低 年 龄 用 户 。 相 关 研 究 ”表明 ,年 长 者 一 般 
比 年 轻 人 有 更 高 的 隐私 顾虑 ,也 更 可 能 担忧 因 自我 披 
露 造成 的 负面 影响 。 另 外 ,大 多 数 年 轻 人 将 社交 网 络 
视 为 其 展现 个 性 .塑造 身份 认同 的 重要 平台 ,从 而 在 社 
交 网 络 中 进行 更 多 的 自我 披露 。 因 此 , 随 着 用 户 年 龄 
增长 ,其 在 社交 网 络 平台 的 自我 披露 意愿 会 逐渐 降低 。 

学 历 变量 。 根 据 表 4 可 以 得 出 ,用 户 学 历 显 著 负 
向 影响 其 自我 披露 意愿 , 即 高 学 历 用户 自 我 披露 意愿 
显著 低 于 低 学 历 用 户 。 相 关 研 究 表明 ,高 学 历 用 户 的 
隐私 关注 “(或 隐私 忧虑 、 隐 私 敏感 性 ) 程度 显 
著 高 于 低 学 历 用 户 ,而 隐私 关注 负 向 影响 用 户 自 我 披 
露 意愿 ,因此 高 学 历 用 户 在 社交 网 络 中 的 自我 披露 水 
平 相对 较 低 ,与 已 有 研究 结论 相符 。 

综 上 ,用户 自我 披露 意愿 是 一 种 受 性 别 .年 龄 和 学 
历 等 人 口 统计 学 特征 综合 影响 的 个 人 特质 ,本 研究 关 
于 人 口 统计 学 因素 对 用 户 自 我 披露 意愿 的 检验 结果 可 
作为 对 已 有 研究 结论 的 补充 证 明 。 
5.2.2 语义 维度 与 用 户 自我 披露 意愿 

基于 语义 分 类 结果 ,可 获取 用 户 公开 发 布 微 博 中 
各 种 语义 类 型 微 博 的 数量 分 布 。 经 统计 ,用 户 在 4 种 
语义 类 型 下 公开 发 布 微 博 的 平均 数量 分 别 为 163 .212、 
148 和 245。 为 检验 同一 用 户 在 不 同 语义 维度 下 公开 发 
布 的 微 博 数量 是 否 具备 显著 性 差异 ,笔者 采用 配对 样本 
了 检验 ,基于 语义 类 型 两 两 配对 ,以 分 析 不 同 语义 类 型 对 
日 户 自我 披露 意愿 的 影响 ,检验 结果 如 表 5 所 示 : 

表 5 不同 语 义 类 型 之 间 的 配对 样本 T 检验 结果 

新 闻 娱 乐 类 工作 学 习 类 情感 表达 类 


最 六 


EC 


所 
3 


Ree 


生活 纪录 类 


生活 纪录 类 1 

新 闻 娱乐 类 0.003 1 

工作 学 习 类 0. 137 0. 000 

情感 表达 类 0.001 0. 152 0.000 1 


根据 表 5 可 以 得 出 ,用 户 在 “新 闻 娱乐 类 ”和 “人 情 
感 表达 类 ”维度 下 公开 发 布 的 微 博 数 量 均 显 著 高 于 
“生活 记录 类 ”和 “工作 学 习 类 ”, 而 “新 闻 娱 乐 类 ”和 
“情感 表达 类 ”之 间 以 及 “生活 记录 类 ”和 “工作 学 习 
类 "之 间 的 微 博 数 量 差 异 并 不 显著 。 可 能 是 由 于 不 同 
语义 类 型 的 微 博 包 含 的 个 人 隐私 信息 量 存 在 差异 ,从 
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而 导致 用 户 隐 私 泄露 概率 不 同 。 比 如 ,新闻 娱乐 类 ” 
微 博 内 容 大 多 为 公开 的 公共 信息 ,而 “生活 记录 类 "可 
能 包含 姓名 .住址 ,职业 等 个 人 敏感 信息 。 相 比 之 下 ,发 
布 “新 闻 娱乐 类 ” 微 博 导致 用 户 隐私 泄露 的 可 能 性 远 低 
于 “生活 记录 类 ” 微 博 。 因 此 ,用 户 发 布 “新 闻 娱 乐 类 ” 微 
博 的 意愿 高 于 “生活 记录 类 ”, 这 与 石 文 华 等 ”的 研究 
结论 一 致 , 即 用 户 更 喜欢 分 享 享乐 型 信息 。 
5.2.3 空间 维度 与 用 户 自我 披露 意愿 

(1) 位 置 标签 对 用 户 自 我 披露 意愿 的 影响 。 用 户 
发 布 微 博时 可 自主 选择 是 否 添加 位 置 标签 ,因此 ,分 析 
空间 维度 对 用 户 自我 披露 意愿 的 影响 时 ,首先 应 分 析 
有 位 置 标签 的 微 博 数量 和 无 位 置 标 签 的 微 博 数量 的 差 
异 。 经 统计 ,用 户 在 有 位 置 标 签 和 无 位 置 标 签 维度 下 
人 开发 布 微 博 的 平均 数量 分 别 为 355 和 413 ,对 其 进行 
配 斌 料 本 检验 。 检 验 结果 显示 同一 用 户 发 布 有 位 置 
标签 的 微 博 数量 显著 低 于 无 位 置 标签 的 微 博 数 量 (P 
-26)026) ,表明 用 户 发 布 微 博时 更 倾向 于 隐藏 位 置 标 
守 可 能 是 由 于 位 置信 息 是 用 户 敏感 度 较 高 的 个 人 隐 


私 售 息 ,将 用 户 的 历史 位 置 数据 与 用 户 公开 的 其 他 数据 
秆 关联 分 析 , 可 能 推测 出 用 户 的 敏感 信息 甚至 是 建立 
< 画 像 ( 比 如 ,D，Preotiuc 等 号 通过 分 析 Foursquare 
用 吝 的 签到 数据 ,将 用 户 划分 为 普通 用 户 “ 商 人 ”和 
“合作 三" 等 类 型 ,并 预测 了 用 户 未 来 的 动向 ) 。 因 此 , 自 
我 援 圳 时 的 位 置 标签 可 能 导致 用 户 的 其 他 隐私 信息 泄 
有 ;从 而 显著 降低 社交 网 络 用 户 的 自我 披露 意愿 。 

它 (2) 空 间 级 别 对 用 户 自我 披露 意愿 的 影响 。 基 于 
空 邮 级 别 分 类 结果 ,统计 用 户 在 不 同 空间 级 别 发 布 微 
博 的 数量 分 布 , 结 果 显 示 用 户 在 城市 街道 和 具体 位 置 
3 种 空间 级 别 下 公开 发 布 微 博 的 平均 数量 分 别 为 153、 
111 和 91。 采 用 配对 样本 了 检验 ,基于 空间 级 别 两 两 
配对 ,分 析 同 一 用 户 在 不 同 空间 级 别 的 自我 披露 意愿 
是 否 具 备 显著 性 差异 ,检验 结果 如 表 6 所 示 : 


| 


表 6 不 同 空间 级 别 之 间 的 配对 样本 T 检验 结果 
城市 街道 具体 位 置 
城市 1 
街道 0.016 1 
具体 位 置 0. 000 0.030 1 


根据 表 6 可 以 得 出 ,空间 级 别 对 用 户 自 我 披露 意 
愿 有 显著 影响 ,空间 级 别 越 低 (即位 置 标签 越 具 体 ) ， 
用 户 自我 披露 意愿 也 越 低 。 因 为 位 置 标签 越 具体 , 泄 
露 个 人 隐私 信息 的 可 能 性 越 高 。 因 此 ,位 置 标签 的 空 


空间 类 型 分 类 结果 ,统计 用 户 在 不 同 空间 类 型 发 布 微 
博 的 数量 分 布 ,结果 显示 用 户 在 大 众 娱乐 场所 、 医 疗 健 
康 场所 、 学 习 教 育 场所 和 个 人 居住 场所 4 种 空间 类 型 
下 平均 发 布 微 博 数量 分 别 为 32、15 ,25 和 19。 采 用 配 
对 样本 了 检验 ,基于 空间 类 型 两 两 配对 ,分析 同一 用 户 
在 不 同 空间 类 型 维度 下 的 自我 披露 意愿 是 否 具 备 显著 
性 差异 ,检验 结果 如 表 7 所 示 : 
表 7 不 同 空间 类 型 之 间 的 配对 样本 T 检验 结果 

大 众 娱乐 场所 医疗 健康 场所 学 习 教育 场所 个 人 居住 场所 

大 众 娱 乐 场所 1 


医疗 健康 场所 0.001 1 
学 习 教育 场所 0. 156 0. 000 1 
个 人 居住 场所 0.010 0.085 0.000 1 


根据 表 7 可 以 得 出 ,用 户 在 大 众 娱乐 场所 和 学 习 
教育 场所 的 自我 披露 意愿 均 显著 高 于 医疗 健康 场所 和 
个 人 居住 场所 ,但 在 大 众 娱乐 场所 和 学 习 教 育 场所 之 
间 以 及 医疗 健康 场所 和 个 人 居住 场所 之 间 的 自我 披露 
意愿 没有 显著 差异 。 可 能 是 因为 大 众 娱乐 场所 和 学 习 
教育 场所 属于 公共 场所 ,医疗 健康 场所 较 之 大 众 娱乐 
场所 和 学 习 教 育 场所 私密 性 更 高 ,而 个 人 居住 场所 属 
于 私人 场所 ,私密 性 最 高 ,相关 研究 表明 ,用 户 在 公 
共 场 所 的 自我 披露 意愿 显著 高 于 私人 场所 。 另 外 , 基 
于 医疗 健康 场所 的 位 置 标签 与 用 户 的 其 他 相关 数据 可 
能 推测 出 用 户 的 身体 健康 状况 ,从 而 导致 用 户 的 医疗 
健康 隐私 泄露 ,因此 社交 网 络 用 户 在 医疗 健康 场所 的 
自我 披露 意愿 较 低 。 

s.2.4 数据 权限 与 用 户 自我 披露 意愿 

通过 疏 虫 获取 的 微 博 均 为 用 户 公开 发 布 的 微 博 
( 即 数 据 权 限 为 “所 有 人 可 见 ” 的 微 博 ) ,根据 用 户 发 布 
的 历史 微 博 总 数 和 用 户 公开 发 布 的 微 博 数量 ,可 计算 
获得 用 户 非 公开 发 布 的 微 博 数 量 。 经 统计 ,用 户 发 布 
的 数据 权限 为 “所 有 人 可 见 ” 和 “部 分 人 可 见 ” 的 微 博 
平均 数量 分 别 为 768 和 945 ,对 其 进行 配对 样本 了 T 检 
验 , 检 验 结 果 表 明 同 一 用 户 发 布 有 数据 权限 的 微 博 数 
量 显著 高 于 无 数据 权限 的 微 博 数量 (P = 0. 005 ) , 即 控 
制 数据 权限 正 向 影响 用 户 自我 披露 意愿 。 已 有 研究 表 
明 "™ ,用 户 在 披露 隐私 信息 时 会 进行 数据 权限 控制 ， 
添加 数据 权限 可 以 有 效 降低 用 户 的 隐私 担忧 。 


6 结语 


综 上 所 述 ,笔者 得 出 如 下 研究 结论 :中 社交 网 络 用 
户 自我 披露 意愿 是 一 种 个 人 特质 , 受 性 别 .年龄 和 学 历 


间 级 别 正 向 影响 用 户 的 自我 披露 意愿 。 
(3) 空 间 类 型 对 用 户 自 我 披露 意愿 的 影响 。 基 于 


等 人 口 统计 学 特征 影响 ,相关 检验 结果 与 已 有 研究 结 
论 一 致 ; 巴 自我 披露 信息 的 语义 类 型 对 用 户 自我 披露 
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意愿 产生 显著 影响 ,控制 位 置 标签 和 数据 权限 会 显著 
提高 用 户 自我 披露 意愿。 

本 研究 结果 可 应 用 于 :GD 用 户 自我 披露 的 信息 类 
型 取决 于 用 户 自身 ,社交 网 络 平台 无 法 控制 ,但 可 通过 
更 改 位 置 标签 和 数据 权限 的 默认 首选 项 ,提高 用 户 对 
其 自我 披露 的 感知 控制 。 比 如 ,将 用 户 自我 披露 时 的 
位 置 标签 默认 设置 为 “无 "或 将 位 置 标签 的 空间 级 别 
默认 设置 为 “城市 ”, 也 可 将 用 户 自我 披露 时 的 数据 权 
限 默认 设置 为 “部 分 人 可 见 "”。 加 将 自我 披露 时 附带 
的 位 置 标签 ,数据 权限 等 选择 权 赋予 用 户 ,提高 用 户 对 
其 自我 披露 的 感知 控制 能 力 ,降低 因 平台 默认 设置 而 
导致 用 户 个 人 隐私 信息 泄露 的 可 能 性 ,从 而 提高 用 户 
持续 使 用 社交 网 络 进行 自我 披露 的 意愿 。 

”本 研究 的 局 限 性 主要 有 :中 在 用 户 样本 第 选 过 程 
中 5 有 效用 户 率 较 低 ( 仅 3.3% ) ,主要 是 因为 用 户 的 个 
/C6 里 本 数据 不 完善 , 即 用 户 在 社交 网 络 中 披露 个 人 基 
术 禾 据 的 意愿 偏 低 ;加 由 于 篇 幅 限 制 ,笔者 仅 从 用 户 发 
要 办 容 的 角度 分 析 其 自我 披露 意愿 ,今后 的 研究 可 从 用 
语 堪 露 个 人 基本 数据 的 角度 出 发 ,分 析 其 自我 披露 意愿 
性 影响 因素 ;@ 采 用 “公开 发 布 微 博 数量 比例 "代表 用 
[有 我 披露 意愿 的 准确 度 可 能 有 待 商 椎 ,期 望 能 够 在 未 
法 下 完 中 综合 采用 多 指标 衡量 用 户 自我 披露 意愿 。 
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Abstract: | Purpose/significance | Users”self-disclosure is of strategic significance to social network platforms 
based on user-generated content, and the quantity and quality of user-generated content depend on the user’ s will- 
ingness to self-disclosure. Therefore, the study of users” willingness to self-disclosure and its influencing factors can 
provide reference for social network platforms to formulate privacy policies and encourage users to disclose personal 
information, to promote the development of social networks platforms. | Method/ process | Based on the existing re- 
search framework, a research model of social network users ”self-disclosure willingness was constructed. This study 
took Sina microblog as an example, and adopted python crawler method to obtain users” personal data to analyzed us- 
ers” willingness to self-disclosure. | Result/conclusion | Semantic content, location tags and data permission of mi- 
croblog all affect users” willingness to self-disclosure. Hiding location tags and setting data permission can signifi- 
cantly improve users ”willingness to self-disclosure. Social network users’” willingness to self-disclosure is a kind of 
personal characteristics, which is affected by demographic factors, such as gender, age and education background of 
users. 
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